https://adcloud.compbio.ulaval.ca/index.php/s/SdDrKrkbq9QHCLn

1 Partie I

Pour les protéines, miRNA et gènes, on possède les données de 150 échantillons. On a ensuite 142 variables pour les protéines, 184 pour les miRNA et 200 pour les gènes.

1.1 Analyse variation

Distribution du coefficient de variation dans le bloc mirna

Figure 1.1: Distribution du coefficient de variation dans le bloc mirna

Distribution du coefficient de variation dans le blocs mrna

Figure 1.2: Distribution du coefficient de variation dans le blocs mrna

Distribution du coefficient de variation dans le bloc protéine

Figure 1.3: Distribution du coefficient de variation dans le bloc protéine

On peut voir sur les histogrammes que le type de données possédant le plus de variabilité est le type protéine. En effet, sa variabilité est comprise entre -100 et 250, même si on peut observer qu’elle est comme les autres centrée vers 0.

1.2 Nettoyage des données

En supprimant les données les plus variantes (\(\lvert{C_v}\rvert \geq 0.15\)), il ne reste que 142 protéines, 174 gènes et 82 miRNA.

1.3 Gène le plus variable

Le gène avec le plus grand coefficient de variance de notre jeu de données est PLCD4. La protéine codée par ce gène peut jouer un rôle dans la croissance et la prolifération cellulaire. Son expression peut donc notamment être un marqueur de cancer. PLCD4 est situé sur le chromosome 2, et sa longueur est de 30749 nucléotides. La protéine correspondant à ce gène est Q9BRC7, d’une longueur de 762 nucléotides, mais n’est pas contenue dans notre jeu de données.

2 Partie II

2.1 1. Single-omic: l’ACP avec mixOmics

L’ACP est une méthode d’analyse statistique et de réduction des données, permettant de calculer des composantes maximisant la variabilité des données étudiées. On peut ensuite évaluer si les composantes calculées permettent de caractériser correctement la variabilité des données (par exemple s’il est possible de retrouver certains groupes séparés distinctement par les composantes), et d’identifier les variables les plus importantes participant à ces composantes.

##   Eigenvalues for the first 10 principal components, see object$sdev^2: 
##         PC1         PC2         PC3         PC4         PC5         PC6 
## 4601.980533   46.705472   21.519114   12.661752    9.796326    8.634070 
##         PC7         PC8         PC9        PC10 
##    7.445820    6.180146    5.062428    4.265798 
##   
##   Proportion of  explained variance for the first 10 principal components, see object$explained_variance: 
##         PC1              PC2              PC3              PC4      
## 0.956078087      0.009703231      0.004470674      0.002630525      
##         PC5              PC6              PC7              PC8      
## 0.002035222      0.001793759      0.001546896      0.001283948      
##         PC9             PC10      
## 0.001051738      0.000886235      
##   
##   Cumulative proportion of  explained variance for the first 10 principal components, see object$cum.var: 
##       PC1            PC2            PC3            PC4            PC5      
## 0.9560781      0.9657813      0.9702520      0.9728825      0.9749177      
##       PC6            PC7            PC8            PC9           PC10      
## 0.9767115      0.9782584      0.9795423      0.9805941      0.9814803      
##   
##   Other available components: 
##  -------------------- 
##   loading vectors: see object$rotation 
##   Other functions: 
##  -------------------- 
##   plotIndiv, plot, plotVar, selectVar, biplot
Explication de la variabilité par les différentes composantes - avec center & scale false

Figure 2.1: Explication de la variabilité par les différentes composantes - avec center & scale false

## 
## Call:
##  tune.pca(X = mrna.c, ncomp = 50, center = F, scale = F) 
## 
##  for all principal components, see object$sdev, object$explained_variance and object$cum.var

Au vu de l’histogramme:

  • Une seule composante explique la majorité de la variabilité.
  • Il peut être intéressant de centrer-réduire les données pour mieux dégager la variabilité des données.
##   Eigenvalues for the first 10 principal components, see object$sdev^2: 
##       PC1       PC2       PC3       PC4       PC5       PC6       PC7       PC8 
## 33.720079 23.308702  9.887708  8.601462  7.448849  5.701675  4.198577  3.765421 
##       PC9      PC10 
##  3.265814  3.045500 
##   
##   Proportion of  explained variance for the first 10 principal components, see object$explained_variance: 
##        PC1             PC2             PC3             PC4             PC5      
## 0.19379356      0.13395806      0.05682591      0.04943369      0.04280948      
##        PC6             PC7             PC8             PC9            PC10      
## 0.03276825      0.02412975      0.02164035      0.01876904      0.01750288      
##   
##   Cumulative proportion of  explained variance for the first 10 principal components, see object$cum.var: 
##       PC1            PC2            PC3            PC4            PC5      
## 0.1937936      0.3277516      0.3845775      0.4340112      0.4768207      
##       PC6            PC7            PC8            PC9           PC10      
## 0.5095889      0.5337187      0.5553590      0.5741281      0.5916310      
##   
##   Other available components: 
##  -------------------- 
##   loading vectors: see object$rotation 
##   Other functions: 
##  -------------------- 
##   plotIndiv, plot, plotVar, selectVar, biplot
Explication de la variabilité par les différentes composantes - avec center & scale true

Figure 2.2: Explication de la variabilité par les différentes composantes - avec center & scale true

Les 30 premières composantes expliquent 80% de la variabilité et elles sont donc sélectionnées.

Projection des variables (ici les gènes) selon les composantes 1 et 2 d'une ACP

Figure 2.3: Projection des variables (ici les gènes) selon les composantes 1 et 2 d’une ACP

Les dix variables contribuant le plus à l’axe 1 sont : ZNF552, C4orf34, KDM4B, FUT8, CCNA2, TTC39A, LRIG1, SEMA3C, PREX1, SLC43A3. Les graphiques représentant les variables sont actuellement très difficilement lisibles, on doit donc afficher les contributions des variables aux composantes à l’aide d’une commande.

Projection des individus selon les composantes 1 et 2 d'une ACP

Figure 2.4: Projection des individus selon les composantes 1 et 2 d’une ACP

On peut observer que la PCA sépare de façon assez distincte les individus des trois groupes selon les 2 premières composantes, malgré des frontières assez floues entre les groupes.

Les gènes sélectionnés par la spca pour la première composante sont : KDM4B, ZNF552, PREX1, TTC39A, STC2, LRIG1, C4orf34, MTL5, FUT8, SLC19A2. Pour la seconde composante principale, on a retenu APBB1IP, NCF4, FLI1, C1orf162, CSF1R.

Projection des gènes principaux selon les composantes 1 et 2 d'une Sparse-PCA

Figure 2.5: Projection des gènes principaux selon les composantes 1 et 2 d’une Sparse-PCA

2.2 2.1 Projection on Latent Structures

La PLS est une méthode statistique permettant de traiter différentes matrices de données. Contrairement à l’ACP, qui ne peut analyser qu’un jeu de données à la fois, on va ici pouvoir dégager des composantes - dites latentes - maximisant la covariance entre nos deux matrices d’entrée. Sur notre analyse, on va ainsi pouvoir dégager via les composantes les possibles corrélations entre l’expression génique et l’expression protéique.

Projection des individus colorés en fonction de leur groupe selon les composantes 2 et 3 d'une PLS

Figure 2.6: Projection des individus colorés en fonction de leur groupe selon les composantes 2 et 3 d’une PLS

Arrow plot des individus colorés en fonction de leur groupe selon les composantes 1 et 3 d'une PLS

Figure 2.7: Arrow plot des individus colorés en fonction de leur groupe selon les composantes 1 et 3 d’une PLS

Les variables retenues pour la troisième composante sont C1QB, Caspase.7_cleavedD198.

Matrice de corrélation entre l'expression des gènes et l'expression des protéines calculée à partir d'une Sparse-PLS

Figure 2.8: Matrice de corrélation entre l’expression des gènes et l’expression des protéines calculée à partir d’une Sparse-PLS

Network plot des gènes et protéines les plus corrélés (|p| > 0.65) à partir des résultats d'une SPLS

Figure 2.9: Network plot des gènes et protéines les plus corrélés (|p| > 0.65) à partir des résultats d’une SPLS

Sur la spls, on peut observer 7 clusters différents possédant une corrélation supérieure à 0.65 ou inférieure à -0.65 (3 protéines et 4 gènes).

2.3 2.2 Multiblock Projection on Latent Structures

Résultats d'une block pls sur les protéines, mrna et mirna

Figure 2.10: Résultats d’une block pls sur les protéines, mrna et mirna

Résultats d'une block pls sur les protéines, mrna et mirna

Figure 2.11: Résultats d’une block pls sur les protéines, mrna et mirna

Résultats d'une block pls sur les protéines, mrna et mirna

Figure 2.12: Résultats d’une block pls sur les protéines, mrna et mirna

Résultats d'une block spls sur les protéines, mrna et mirna

Figure 2.13: Résultats d’une block spls sur les protéines, mrna et mirna

Résultats d'une block spls sur les protéines, mrna et mirna

Figure 2.14: Résultats d’une block spls sur les protéines, mrna et mirna

Résultats d'une block spls sur les protéines, mrna et mirna

Figure 2.15: Résultats d’une block spls sur les protéines, mrna et mirna

Les variables sélectionnées sur la première composante sont:

  • Mrna: CCNA2, ZNF552, FUT8, ASPM, C4orf34, KDM4B, LRIG1, SLC43A3, TTC39A, PREX1
  • Protéine: Cyclin_B1, Cyclin_E1, ER.alpha, GATA3, ASNS, AR, JNK2, CDK1, Chk2
  • Mirna: hsa.mir.17, hsa.mir.20a, hsa.mir.130b, hsa.mir.505, hsa.mir.590, hsa.mir.106a, hsa.mir.9.2

2.4 3. Analyse supervisée : (s)PLS-DA

Projection des individus selon les composantes 1 et 2 d'une PLS-DA

Figure 2.16: Projection des individus selon les composantes 1 et 2 d’une PLS-DA

Par rapport à la PCA, on peut considérer que la PLS-DA permet de mieux retrouver nos trois groupes d’échantillons sur ce graphique par rapport aux deux premières composantes principales. En effet, les trois groupes sont ici clairement distincts dans l’espace du graphique, et les frontières entre groupes sont bien plus marquées. Il semblerait donc que la variabilité des données calculée par la PLS-DA permet de mieux expliquer les différences génétiques entre les groupes de nos échantillons.

2.5 4. Analyse supervisée : block-(s)PLS-DA

Projection des individus selon les composantes 1 et 2 d'une block spls-da réalisée sur les gènes, mirna et protéines

Figure 2.17: Projection des individus selon les composantes 1 et 2 d’une block spls-da réalisée sur les gènes, mirna et protéines

Projection des individus selon les composantes 1 et 2 d'une block spls-da réalisée sur les gènes, mirna et protéines après sélection d'un nombre limité de variables pour chaque jeu de données

Figure 2.18: Projection des individus selon les composantes 1 et 2 d’une block spls-da réalisée sur les gènes, mirna et protéines après sélection d’un nombre limité de variables pour chaque jeu de données

Circosplot des protéines, mirna et mrna avec un cutoff de 0.5

Figure 2.19: Circosplot des protéines, mirna et mrna avec un cutoff de 0.5

3 Partie III

3.1 Question 1

Nous travaillons ici sur les effets de l’exposition à des polluants sur la santé des ours polaires. On a accès pour une vingtaine de trios (un mère et sa portée de deux enfants) à deux types de données omiques:

  • Données transciptomiques
  • Diverses mesures cliniques numériques - on suppose que ces données sont le poids, la taille & le taux d’exposition.

Projection on Latent Structures

pls.result = pls(X = mrna.c, Y = prot.c, ncomp = 3)

La PLS est une méthode statistique permettant de traiter différentes matrices de données. Contrairement à l’ACP, qui ne peut analyser qu’un jeu de données à la fois, on va ici pouvoir dégager des composantes - dites latentes - maximisant la covariance entre nos deux matrices d’entrée. Sur notre analyse, on va ainsi pouvoir dégager via les composantes les possibles corrélations entre l’expression génique et l’expression protéique.

transcriptomique Groupe témoin échantillon sans pollution ? traiter différemment la mère et les enfants attention variations entre famille évaluer la variance de nos échantillons exposition mère impacte enfants ?

analyse en heatmap (spls, cim -> non, que transcriptome) P.heatmap acp ? variables repérer les points communément sur ou sous exprimés

3.2 Question 2

volcano plot p-value up down des molécules classification diversité alpha beta (évaluation) krone ? (semble pas ouf)

Nous travaillons ici sur des microbiotes de souris ayant subi ou non un traitement. On a accès pour chaque souris à deux types de données omiques : métagénomiques (données 16S du microbiote) et métabolomiques (décompte de molécules du métabolome). Donc -> pls ou pls-da covariance entre data métagénome et métabolome analyse individuelle sur métagénome -> diversité alpha / béta, composition métagénome

Il est aussi nécessaire dans ce cas d’effectuer une analyse multiomique. Les différentes informations apportées par les analyses simple-omique nous permettent de mettre en lumière les différences entre les groupes de souris, mais il pourrait être intéressant dans un second temps d’évaluer la covariance de ces données. En effet, les données métagénomiques nous permettent de connaître la composition du microbiote des souris en terme de micro-organisme, et les données métabolomiques donnent une analyse sur la composition des molécules métaboliques du milieu intestinal probablement. Pour déterminer plus précisément les impacts du traitement sur le milieu intestinal, il est donc nécessaire d’utiliser l’outil de “Projection on Latent Structure”. On va ainsi pouvoir trouver les composantes maximisant la covariance entre métagénomique et métabolomique. On peut ainsi effectuer une sparse PLS sur les souris traitées d’un côté et non traitées de l’autre. Un cim plot pourra ainsi être utilisé pour visualiser la variance entre nos différentes variables, ainsi qu’un network plot pour représenter les 16S et les métabolites les plus corrélés. Ces deux représentations graphiques peuvent être utilisées pour les souris traitées et non traitées, pour ensuite comparer nos deux résultats, et ainsi évaluer si le traitement a une influence sur la covariance entre les données omiques.